Dieser Audiobeitrag wird von der Universität Erlangen-Nürnberg präsentiert.
Gut, also herzlich willkommen. Ich hatte ja gerade schon eine nette Einführung,
eigentlich wurde schon das meiste erzählt, aber gesehen haben sie es jetzt noch nicht. Ich möchte
den Vortrag jetzt aber erstmal in zwei Teile gliedern und zwar ist eigentlich der wesentliche
Teil unseres Systems oder der größere Teil zumindest ein so genannter Face Tracker. Ja was
ist Face Tracking? Ja sie sehen hier ein Video von mir und sie sehen auch gleich was dieses System
hier mit diesem Video veranstaltet. Es nimmt nämlich ein dreidimensionales Modell meines
Gesichtes auf. Also was wir hier drüber gezeichnet sehen, das ist jetzt also eine 3D Maske die hat
der Computer anhand dieses Videobildes berechnet. Also von meinem 3D Gesicht besteht jetzt so ein
3D Modell und ja das ist ein bekanntes Problem aus der Informatik, wie man sowas machen kann,
wie man sowas effizient hinkriegt. Da gibt es eine ganze Reihe von Anwendungen. Die Hauptanwendung
ist wahrscheinlich die Filmindustrie, in der wird sowas sehr häufig gemacht. Ich zeige da gleich
auch noch mal kurz ein Bild, weil damit möchte man einfach Gesichtsmimik übertragen auf irgendwelche
virtuellen Charaktere, auf Monster, einen Zwerg, einen Hund, was weiß ich. Also da wird so ein
Face Tracking benötigt. Es gibt aber auch Anwendungen in der Medizin beispielsweise. Man
könnte sich also sehr gut vorstellen, dass man mit so einem System den Schlaganfallpatienten hilft,
wieder eine normale Mimik zu trainieren oder für Telekonferenzen. Das wäre sicherlich auch eine
sehr spannende Anwendung. Viele Leute oder mehrere Leute sitzen vor dem Rechner, von allen wird so ein
3D Modell des Gesichtes aufgenommen und dann kann man virtuell einen großen Konferenzraum bestücken
und sieht jetzt also diese verschiedenen Gesichter wirklich so gemeinsam um den Tisch sitzen. Und auch
sonst kann man sich da sicherlich noch viele solche Anwendungen überlegen. Und das Besondere
bei diesen zwei Anwendungen, Medizin und Telekonferenzen, ist, dass das da auch in
Echtzeit funktionieren muss. Das heißt, es muss möglich sein von dem aufgenommenen Gesicht in
Echtzeit diese Maske zu generieren und das stellt besondere Anforderungen und das macht unser System.
Aber vielleicht noch mal ganz kurz, wie so was in der Filmindustrie passiert, um mal zu zeigen,
dass das ein doch schwerwiegendes Problem ist. Dieses Bild zeigt so ein Face Tracking-System und
man sieht, dass es jetzt also nicht unbedingt ein System ist, wo man einfach so unbeschwert
aufspielen kann. Dem Schauspieler oder in dem Fall glaube ich Schauspielerin werden also hier
Marker, so Punkte ins Gesicht geklebt. Das sind also Marker, die dann später im Bild besonders
gut zu erkennen sind und anhand derer kann man dann also relativ leicht die Gesichtsbewegungen
verfolgen und dann sind außenrum hier halt noch alle möglichen Kameras und so weiter montiert,
die also dann hier die Performance aufnehmen. Mit solchen Systemen werden Filme gemacht,
die sie aus dem Kino kennen, also zumindest computergenerierte Filme, werden also mit
solchen Systemen heute noch gemacht und das ist natürlich klar, dieses Marker aufbringen ist
aufwendig und das ist jetzt nicht gerade eine Umgebung, wo man ja also frei Schauspielern kann.
Okay unser System, hier noch mal das was wir gerade gesehen haben, unser System funktioniert
ohne Marker. Wir brauchen einfach nur ein ganz normales Kamerabild, wie man es also von jeder
Webcam bekommt, also das ist ein normales Bild einer Webcam und es funktioniert in Echtzeit,
jetzt nicht auf einem ganz einfachen Rechner, man braucht schon einen guten Rechner, aber jetzt
auch keinen exorbitant teuren und wenn wir dann auch noch sehen, das Modell das rauskommt,
ist recht gut. Wir können das also wirklich so wieder geben, dass man also damit einen
realistischen Eindruck kriegt, das werden wir nachher noch sehen. Okay, ja also wie funktioniert
jetzt sowas? Ich werde jetzt nicht ganz tief in die technischen Details gehen, aber das Grundprinzip
kann ich Ihnen glaube ich ganz gut erklären und zwar basiert das Ganze auf einem, ja was wir nennen,
parametrischen Gesichtsmodell. Was ist das? Der Herr Thies, von dem übrigens dieses System im
Wesentlichen ist, hat jetzt hier gerade schon mal hier jetzt ein Fenster aufgemacht, wo wir dieses
parametrische Gesichtsmodell sehen können. Das ist einfach ein Modell eines Gesichtes, das ist
entstanden aus ungefähr 200 Scans von realen Personen, die wurden also in so ein Gerät
reingesetzt, mit dem durchaus aufwendig so ein 3D Modell des Gesichts erfasst wurde. Und aus
diesen vielen Modellen hat man jetzt erstmal ein Durchschnittsgesicht ausgerechnet. Das ist das
Presenters
Zugänglich über
Offener Zugang
Dauer
00:38:20 Min
Aufnahmedatum
2016-11-14
Hochgeladen am
2016-12-01 12:00:51
Sprache
de-DE
Nichts ist mehr, wie es scheint: Forscher der FAU haben zusammen mit Partnern der Universität Stanford und des Max-Planck-Instituts für Informatik in Saarbrücken eine Technologie entwickelt, mit der sich Mimik und Lippenbewegungen eines Menschen erfassen und auf das Videobild eines anderen übertragen lassen – in Echtzeit.
Prof. Dr. Stamminger zeigt in seinem Vortrag wie die Facial Reenactment Software (Face2Face) funktioniert: Das Programm erkennt Mimik und Lippenbewegungen eines Menschen in einem Video und überträgt diese im gleichen Moment auf das Videobild eines anderen. Bei computeranimierten Filmen werden ähnliche Technologien seit Jahren eingesetzt – jedoch mit viel größerem Aufwand. In Zukunft könnte die Software bei Simultanübersetzungen, Filmsynchronisationen aber auch zum Erlernen der eigenen Gesichtsmimik nach einem leichten Schlaganfall eingesetzt werden.